《比较统计学》框架的构建及在回归分析中的示范研究

《比较统计学》框架的构建及在回归分析中的示范研究

作者:师大云端图书馆 时间:2015-06-20 分类:开题报告 喜欢:3781
师大云端图书馆

【摘要】
【作者】鲍晓蕾;
【导师】胡良平;
【作者基本信息】中国人民解放军军事医学科学院,流行病与卫生统计学,2014,博士
【目的】针对人们在处理同一个与统计学有关的问题时往往随意从多种类似的分析方法中选择其一的事实,和迄今为止统计学体系中缺乏科学系统的理论研究的现状,建立比较统计学研究的平台,构建科学、合理、系统、完善的比较统计学框架,并对回归分析中的三个子课题进行深入研究,以期成为此项研究的示范;同时邀请与本课题研究有关的各分支领域的专家共同参与该项研究,促进比较统计学的繁荣与发展。
【内容】本研究首先构建比较统计学的框架,内容涉及统计学的方方面面,包括统计思想、统计理论和统计方法,重点是对相似的统计概念、理论和方法进行比较研究。在框架构建完成后,本研究对回归分析中的三个子课题进行了深入探索和研究,即①多种缺失数据处理方法在重复测量资料分析中的比较研究;②四种稳健回归分析方法的比较研究;③多种变量筛选方法的比较研究及在多重回归分析中的SAS自动化实现。在对重复测量资料多种缺失数据处理方法的比较研究中,考察了删除法、单一填补法和多重填补法的处理效果;在对稳健回归方法的比较研究中,考察了最常用的HuberM估计、LTS估计、S估计和MM估计的稳健性及相对效率;在多种变量筛选方法的比较研究中,考察了前进法、后退法、逐步筛选法、R2选择法、校正R2选择法和Mallow’sCp选择法的优劣,并通过SAS软件的宏语言,实现了在进行多重线性回归分析和多种logistic回归分析时,针对同一个问题自动运用多种方法进行变量筛选并自动输出最优的拟合模型,并通过实例验证程序的可行性。本研究还制定了中英文邀请函,邀请国内外专家参与该课题的研究,以凝聚更多专家的智慧和力量,促进比较统计学的繁荣和发展。
【方法】为构建科学、合理、系统、完善的比较统计学框架,本研究大量搜集、阅读、学习、归纳和整理包括Pubmed、Embase、中国知网、万方、维普等大型数据库中的相关文献,在现有的统计学知识的基础上,对比较统计学的整体架构进行梳理,并与教研室师生进行了多次讨论并反复修改。对于重复测量资料多种缺失数据处理方法的比较研究,首先对各种方法进行原理上的总结与比较,然后运用蒙特卡罗模拟的方法构建含一个分组因素和一个重复测量因素的数据集,并进行混合效应模型分析,比较各种方法处理缺失数据的能力。对于单调缺失模式的数据集,考察了删除法、单一填补法中的均值填补法和末次观测结转法、多重填补法中的线性回归法、预测均数匹配法和趋势得分法在三种不同缺失机制、五种不同缺失率数据中的处理效果,其中多重填补法还考虑了不同的填补次数对结果的影响。对于任意缺失模式的数据集,考察了删除法、单一填补法中的均值填补法和末次观测结转法以及多重填补法中的马尔科夫链蒙特卡罗填补法在三种不同缺失机制、五种不同缺失率数据中的处理效果,同时也考察了多重填补不同填补次数对结果的影响。对于四种稳健回归方法的比较,首先对各种方法进行原理上的介绍与比较,然后运用蒙特卡罗模拟的方法比较各种方法的稳健性和相对效率。通过构造一个线性模型,分别运用普通最小二乘估计、HuberM估计、LTS估计、S估计和MM估计分析误差不满足正态分布以及含不同来源和不同比例的异常点的情况。同时,考察在数据满足高斯马尔科夫假定下,以普通最小二乘估计的效率为基准,计算四种稳健估计相对于普通最小二乘估计的效率。最终,综合稳健性及相对效率归纳四种稳健回归方法的优劣。对于多种变量筛选方法的比较研究及在多重回归分析中的SAS自动化实现,选择常用的三种自变量筛选方法(即前进法、后退法和逐步筛选法)及三种最优回归子集法(R2选择法、校正R2选择法、Mallow’sCp选择法),总结各种筛选方法的原理及优缺点,并基于SAS语言编写程序,实现多重线性回归分析和多重logistic回归分析的自动化筛选。随后,将该程序运用到有氧健身效果的影响因素分析及喉癌的发病危险因素分析中,以验证程序的可行性。
【结果】本课题构建了比较统计学研究的框架,并对回归分析中的三个子课题进行了深入研究,全面分析和比较了多种缺失数据处理方法处理重复测量资料的优劣、四种常用稳健回归方法的优劣及多种变量筛选方法的优缺点,并通过SAS软件进行大量编程,实现了多重线性回归分析和多重logistic回归分析自动运用多种方法进行变量筛选并输出最优模型的SAS自动化程序。具体而言,本文的研究结果以及主要创新点包括以下四个方面:(1)构建了科学、合理、系统、完善的比较统计学框架,包括统计思想的比较、各种科研设计方法的比较、统计资料收集与整理方法的比较、常用统计分析方法的比较以及特殊领域中统计应用的比较。(2)多种缺失数据处理方法在重复测量资料中的比较研究得出:在任意缺失模式下,当缺失机制为完全随机缺失和随机缺失时,在低缺失率(10%)情况下,删除法、单一填补法和多重填补法的效果均较好;随着缺失率的增大,删除法和单一填补法的处理效果都不佳,单一填补法甚至不如删除法;而多重填补法的处理效果依然令人满意,当缺失率较低时结果几乎与真值无异,当缺失率高达50%时,其回归系数也非常接近真值,其缺点是在高缺失率下容易高估变量的变异程度。另一方面,多重填补的效果并非随着填补次数的增加而增加。当缺失机制为非随机缺失时,各种方法的处理效果都不理想。在单调缺失模式下,当缺失机制为完全随机缺失和随机缺失时,删除法、均值填补法、末次观测结转法和多重填补的趋势得分法的处理效果都不理想,而多重填补的线性回归法和预测均数匹配法的填补效果很好,其回归系数非常接近真值,缺点是在一定程度上会高估系数的变异程度。另一方面,多重填补的效果并非随着填补次数的增加而增加。当缺失机制为非随机缺失时,所有方法都无法取得较好的处理效果。(3)四种稳健回归方法的比较研究得出:当误差不满足正态分布时,普通最小二乘估计无法进行正确的参数估计和假设检验,且结果非常不稳健,而HuberM估计、LTS估计、S估计和MM估计则能有效抵抗非正态误差的影响。当数据中存在异常值时,无论存在于原因变量还是结果变量,普通最小二乘估计都无法抵御,结果非常不稳健。当异常值只出现在结果变量中时,四种稳健估计法都能正确地估计回归模型,结果非常稳健;当异常值只出现在原因变量中时,HuberM估计无法正确估计回归模型,而LTS估计、S估计和MM估计仍能正确拟合模型,结果稳健;当结果变量和原因变量都存在异常值时,HuberM估计同样无法正确拟合回归模型,而LTS估计、S估计和MM估计依然能正确地估计模型,结果稳健。也就是说,HuberM估计只对结果变量存在异常值的情况稳健,而LTS估计、S估计和MM估计对于原因变量和结果变量的异常值都很稳健。另一方面,在对四种稳健回归方法效率的考察时,以普通最小二乘回归为参照,得出当数据满足高斯马尔科夫假定时,HuberM估计的相对效率最高,能达到普通最小二乘估计的95%;MM估计的相对效率次之,但仍然较高,能达到普通最小二乘估计的85%;S估计再次之,为普通最小二乘估计的75%;LTS估计最低,只有普通最小二乘估计的27%。因此,综合稳健性和相对效率,MM估计相对HuberM估计、LTS估计和S估计具有很大优势,是一种良好的稳健回归估计方法。(4)对六种变量筛选方法的比较研究,首先从原理上分析了各种方法的优缺点,并借助SAS软件的宏编程语言,实现了在多重线性回归和多重logistic回归分析中自动运用多种方法进行自变量筛选并自动输出最优的拟合模型。将该程序运用到有氧健身效果的影响因素分析中,得到年龄、跑1.5km消耗的时间以及跑步时的心率为影响有氧健身效果的影响因素;运用该程序分析喉癌的发病危险因素,得到吸烟量、新鲜蔬菜摄食量以及癌症家族史为喉癌的发病危险因素。通过在以上实例中的运用,证明了程序的切实可行性。
【结论】本课题构建了比较统计学研究的框架,在一定程度和范围内,为未来统计学的研究和发展绘就了一幅宏伟的蓝图;针对回归分析中的三个子课题进行了深入的比较研究,得到了令人满意的结果,为完善比较统计学这个学术平台起到了很好的示范作用。在对多种缺失数据分析方法处理重复测量资料的比较研究中,通过原理上和模拟上的比较,考虑了不同的缺失模式、缺失机制和缺失率,使统计结论更可靠,为实际应用中寻找此类问题的最佳处理提供了有效策略;在对四种常用的稳健回归分析方法的比较研究中,同样进行了原理上和模拟上的比较,对四种方法的稳健性和相对效率进行了全面、系统的评价,统计推论更可信,为稳健回归估计方法的普及和合理选择夯实了理论基础。此外,还对六种变量筛选方法进行了综合比较,通过SAS编程实现了多重回归分析中自动运用多种方法进行变量筛选并自动输出最优模型,并通过实例验证了程序的可行性,为更好、更快捷地选择合适的多重回归模型奠定了理论基础和提供了有效途径。
【关键词】比较统计学框架;缺失数据;稳健回归;变量筛选法;SAS自动化实现;

【参考文献】
[1]周解平.单壁碳纳米管吸附芳香簇氨基酸机理的同步辐射研究[D].中国科学技术大学,2011.
[2]束洪春,张加贝.水机电耦合系统建模及暂态分析[J].电力系统自动化,2008,13:26-30.
[3]苏馨.结直肠癌中K-ras基因突变及VEGF表达的临床意义[D].山西医科大学,病理学与病理生理学,2013,硕士.
[4]鲁铭源.转炉煤气电除尘器气流分布数值模拟[D].燕山大学,环境工程,2014,硕士.
[5]刘佳.基于肠道味觉受体探讨“脾在味为甘”理论内涵的临床及实验研究[D].广州中医药大学,中西医结合临床(专业学位),2014,博士.
[6]杨泓渊.复杂山地自定位无缆地震仪的研究与实现[D].吉林大学,2009.
[7]陶雪涛.川芎嗪体外对骨髓间充质干细胞增殖、OGD存活及分泌功能的影响[D].浙江中医药大学,药理学,2013,硕士.
[8]范佑文.基于分数阶傅里叶变换的光通信接收端光信号预处理技术的研究[D].华中科技大学,光学工程,2013,硕士.
[9]武璐璐.河南焦作地区回族小学整体教育环境的调查研究[D].渤海大学,小学教育(专业学位),2014,硕士.
[10]雷广州.NTR镦锻机肘杆液体静压轴承设计[D].燕山大学,机械制造及其自动化,2014,硕士.
[11]赵华邦.球磨机制粉系统分级预测模糊控制的研究与应用[D].重庆大学,动力工程,2003,硕士.
[12]张吉福.车载移动测量技术在泸沽湖景区管理系统建设中的应用[D].西南交通大学,测绘工程,2014,硕士.
[13]周广胜,袁文平,周莉,郑元润.东北地区陆地生态系统生产力及其人口承载力分析[J].植物生态学报,2008,01:65-72.
[14]方丹.鸡肠道微生物的体外培养与分离鉴定及其对宿主健康的影响[D].华中农业大学,基础兽医学,2014,硕士.
[15]张平.关于元认知策略培训与大专英语专业学生泛读水平提高的实证研究[D].山西师范大学,英语课程教学论,2013,硕士.
[16]坑继超.七、八年级地理教材范例研究[D].内蒙古师范大学,教育(专业学位),2013,硕士.
[17]郁抒思.软件工程数据挖掘若干问题研究[D].复旦大学,计算机软件与理论,2011,博士.
[18]张登飞.黄土基坑工程事故分析与研究[D].西安建筑科技大学,岩土工程,2013,硕士.
[19]王飞龙.煤矿矿测地理信息系统设计与实现[D].西安科技大学,摄影测量与遥感,2014,硕士.
[20]黄亚菲.基于LabVIEW物联网的草原灌溉系统设计[D].青海师范大学,计算机应用技术,2012,硕士.
[21]袁甄.山东省农村信用社改革绩效的实证研究[D].山东大学,金融(专业学位),2013,硕士.
[22]李承红.磁悬浮硬盘功率放大器的研究[D].武汉理工大学,机械制造及其自动化,2004,硕士.
[23]张昊旭.“国有企业家”与国有企业经营绩效关系研究[D].吉林大学,政治经济学,2013,硕士.
[24]陶然.HSP47-shRNA干预日本血吸虫鼠肝纤维化对活化的HSC受体表达的影响[D].华中科技大学,内科学,2013,硕士.
[25]董瑞翔.多输入多输出系统辨识在高炉中的应用[J].冶金自动化,1984,01:54-58.
[26]曾开来.无线数字资讯传播系统[D].武汉理工大学,2003.
[27]卢萍.黑土区土壤弹尾虫群落多样性及其对外源C、N干扰的响应[D].中国林业科学研究院,森林保护学,2014,博士.
[28]林沛坤.财经问答系统问句解析子系统的设计与实现[D].哈尔滨工业大学,软件工程,2014,硕士.
[29]陈晶辉.LZ融资担保公司担保业务风险控制研究[D].天津大学,工商管理,2013,硕士.
[30]舒丹.选择理论视野下初中生课外阅读兴趣的现状透视[D].华中师范大学,课程与教学论,2013,硕士.
[31]惠天罡.试论“会话语用场”[D].新疆师范大学,汉语言文字学,2004,硕士.
[32]刘晓军.张竹坡叙事理论研究[D].湖南师范大学,文艺学,2004,硕士.
[33]高原.一款应用于小功率场合的APFC芯片的设计[D].西安电子科技大学,电路与系统,2012,硕士.
[34]杜国芳,焦立辉.Web数据挖掘技术在图书馆工作中的应用[J].上海高校图书情报工作研究,2004,04:27-29.
[35]邵红全,赵茜.用SQLServer2000实现数据挖掘的技术与策略[J].电脑开发与应用,2003,04:69-70.
[36]殷步九.一体(元)化电子出版系统新结构研制成功是我国电子出版事业发展的又一里程碑——关于电子出版系统发展中若干问题之我见(连载二)[J].云南印刷.1995(02)
[37]赵志胜.盐城市水生植物资源及其园林应用调查[D].南京农业大学,风景园林,2012,硕士.
[38]赵盈盈.JH公司运营管理流程优化研究[D].兰州大学,工商管理(专业学位),2013,硕士.
[39]叶凌霄.医用蒸馏水设备造型设计及实践[D].浙江理工大学,艺术设计(专业学位),2014,硕士.
[40]王兴科.河南省砂姜黑土与潮土系统分类研究[D].郑州大学,环境工程,2013,硕士.
[41]王磊.黄土沟谷地区桥梁桩基加固技术的应用研究[D].长安大学,桥梁与隧道工程,2014,硕士.
[42]黄鹏.低熔点高强度铝合金钎料制备与性能研究[D].浙江大学,材料工程,2013,硕士.
[43]方练.β-链接素在喉癌组织中的表达及意义[D].浙江大学,耳鼻咽喉科学,2004,硕士.
[44]刘洋.石墨烯中谷极化调控研究[D].河北师范大学,2013.
[45]蔡燕茹.英汉学习型词典中情感隐喻的呈现[D].广东外语外贸大学,外国语言学及应用语言学,2013,硕士.
[46]王敏.语篇衔接视角下的《围城》英译本研究[D].山东财经大学,外国语言学及应用语言学,2012,硕士.
[47]肖玢.隐名股权转让合同的效力研究[D].南京大学,经济法学,2013,硕士.
[48]许阳.基于碳纳米管可饱和吸收体的全光纤1μm全正色散锁模激光器的研究[D].吉林大学,2014.
[49]谷彩云.董志刚教授治疗糖尿病肾病经验[D].辽宁中医药大学,中医内科(专业学位),2012,硕士.
[50]刘林海.高一学生学习数学困难的原因及转化策略[D].湖南师范大学,学科教学(专业学位),2013,硕士.

相关推荐
更多